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(54) Prazessor mit Pfpeflnlng-Aufbau 

(57) Prozessor mit Pipefining-Aufbau, frvsbesondere 
mit aiperskalarer Arthitektur, mit einer konfigurierbaren 
Logikeinheft, einem Instn^tionsspeccher, einer Deto- 
diereinheH, Mertacemftteln, einem Programmable 
Structure Buffer, mem Integer/Address Instruction Buf- 
fer, einer zur Vbrknflpfung der Inhalte des Integer-Regl- 
ster-Files ale Functional Unit with Programmable 
Structures ausgeftfvte, rarftplaxgestBuerte s-Paradig- 
men Unit (e-Unit) mit einer Vielzahl von durch Muitiple- 
xem vertxindenen Datenverbindungen, wobei dieee e- 
LWt zur dynamischen Neukorfiguration/Programrnie- 
rung wahrend der Laufzeit dee Programme mit einer 
progr am mjefbaren Hartiwarestruktur versehen tet und 
wobei innerhab der Functional Unit, eine Mehrzahl von 
Arithmetic-Units zur arfthmetischen undfoder logischen 
VerknQpfung zweier Operanden auf zwei Ekigangsbus- 
sen zu einem Ergebnis auf einem Auegangsbus. eine 
Mehrzahl von Compare-Units mit zwei Efogangsbussen 
und einem Auegangebit, eine Mehrzahl von Mutt$!e- 
xem mit einer Mehrzahl von Eingangsbussen und eln 
Oder zwei Ausgangsbussen, die zwiechen den Arithme- 
tic-Units den Compare-Units und dem Register-File vor- 
gesehen sind, sowie eine Mehrzahl von Demultiplexem 
mit einem Eingangsbit und einer Mehrzahl von Aus- 
gangsbHs vorhanden sind. 
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Baschrefbung 

Die Erftndung betrifft einen Prozessor mit Pipefing- 
Aufbau, msbesondere mit superskalarer Architektur 
nach dem Oberbegriff des Hauptanspruchs. 

Diese Ivfkroarchitekturen soflen den hOchsten Grad 
an ParaBelKfil auf Instrultfonsniveau h Mikroconputern 
realisi eren. 

Die zentralen Recheneinheiten In Mfroconputern 
bestshen hauptsflchfich aus dem Prozessor, der im W- 
genden als einzelstehender Prozessor zu verstehen tst 
z. B. als Milcoprozessor, der nicht Be&tandtefl elnes 
Ktikroprcvzessorsystems ist Oder fur den diese Zughorio- 
kert teine Rofle im Sinne einer Instniktionsparallentat 
spiett 

Diese Prozessoren sind im allgemeinen nach dem 
vcn-Neumann-ModeD tortzpart. Wfihrend dieses 
Model! for cfie Trenmrtg von Code- und Datenspeicher- 
bereich im Harvard-Model! aufgeboben wind (dort war- 
den diese Speicher getrennt und mit verschiedenen 
Zugriffswegen erreicht). gelten sowoH im von-Neu- 
marm-wie kn Harvard -Modefl mh toren vielen Modifflka- 
ttonen und Varianten die strenge Abarbertungs- und 
ErgebnisseqtjBnziait&t des Befehlsftusses. Ausnahmen 
von diesem Modeli bflden cfie DatenfluBrechner, cfie 
vom DatenftuB gesteuert arbeiten, also nicht vom Kbrv 
troH-FluB. 

Unter Befcehaltung der sequentieBen Bearbeitung 
des BefehKsstiom& hat die EfrifCtorung sogenannter 
RISC-ArcNtekturen, die zurfichst nur eine Reduzierung 
des trstruktionssatzes zur Vererrfachung des Prozesr 
sordesigrts beinhaftete, eine Heranfuhrung der 
GeschwindigkBit auf einen Befehl pro Systemtakt des 
Processors erzaugt. Dieswude durch den Ersatz sines 
Mikroprogramms im Prozessor durch test verdrahtete 
Hardware sowie durch umfangreiche Pipelinlng-MaB- 
nahmen erreicht Tiotz einer schetnbaren Parallelitat 
Irmerhato des Processors wurde cfie maxknale Befehls- 
rate mit einer Inetruktion pro Takt und die Beaibeitungs- 
und die Eigebrtissequenziafitat erhalten. 

Waiter ist zum Stand der Technik die US-Patent- 
schrift53S1 373 zu nemen, <fie eindynamiech konfigu- 
rierbaras Gate-Array beschrebt, und eine VerOffent- 
lichung 'Highperformance computing using a reconftgu- 
rable accelerator in "CONCURRENCY: Practice and 
Experience. W. 8 (6). 429 443 (July-August 1996)-. 
Letztere beschretot einen reinen Coprozeesor, der eine 
retonfigurieibare ArHhmetisch-logische Bnheit (rALU) 
umfaBt, die zu Programmbeginn (!) komplett geiaden 
wind, urn dann besondere Schleifen eines Programms 
schnell abzuarbeiten. Dies erfordert einen groBen Auf- 
wand beim Compfler. Durch seine tomplette Beechreib- 
barteH erhatt eine solche Recheneinheh wesentlich 
komptexere Befehle. Eine Neucompilierung ist mum- 
gflngiich. 

Die ErRndung hat eich nun mehr die Aufgabe 
gesteilt eine h&here ParalleTrtftl bei der Verarbertung zu 
erretchen, wodurch der Mikroconputer seine Verarbei- 



tungsgeschwincfigkeit steigem Harm. 

Alterneueste EntwicMungen aus dem letzten Jahr 
im Sektor der Prozessoren erreichen eine Bearbei- 
tungegeschwincfigkeit mit durchschnittlich mehr als 

5 einer Instruktion pro Takt Diese als 'superstalar 1 
bezeichneten Prozessoren, die sowohl als RISC wie 
auch als CISC-Architektur (Complex Instruction Set 
Computer) anzutreffen sind, tteten damit ein MaB an 
GeschwirxSgkeit das eine sequentiefle Bearbdtungs- 

70 reihenfdge nicht mehr zidflBL Durch umfangreicha 
MaBnahmen im inneren Aufbau der Prozessoren wer- 
den mehrere Instruklionen und die damit verbundenen 
Aktionen parallel zueinander ermCglicht, wobei die 
Ergebnisse sowia die UnterbrechungsfdNgkait Im 

75 Sinne einer sequentielen Bearbeitung sichergesteltt 
werden. 

Als Beispiel einer solchen Mkroarcrttektur eines 
superskalaren Prozessors ist die Vertffentfichung "Pro- 
ceedings of the EEE\ Volume 83, Nr. 12, S. 1609. 

20 James E. Smith mit dem Tttei "The Kficroarchitecture of 
Superscalar Processors" zu nemen. Diese VerOffentii- 
chung biota! einen GberbOck Qber das Arbeiten siper- 
skalarer Prozessoren. 

Ein sich direkt daran anschlieBendes Paper auf S. 

25 1625 im gleichen Heft der gleichen ZeitschrtQ "Compfler 
Technology for Future Microprocessors^, Wen-Mai W. 
Hwu et al. beschrefct die zugehOrigen Con^piler-Tech- 
nologien. 

Allen NeuentwfcMung gemein ist jedoch, daB die 

so Eigebniradierung, die gleichbedeutend ist mit der En- 
haftung der Ergebnissequenziaitfit, die Erkennung und 
Aufioeung von reallen und virtuellen SlOrungen, soge- 
nannten Hazards, beeinhatet, da dixch die Verarbei- 
tungsparallelttdt auf Instruktionsebene entstahea Der 

& einzige reale Hazard beeleht ddbei in dem "Read-After- 
Write" (RAW), ctei ein Wert als Ausgangsfcasis fOr eine 
Berechnung erst nach dnem vorangegangenen Schret- 
ben gelesen werden tarwi. Eine solche Sequenz kann 
nicht f^uaflel zueinander bearbeftet werden, wahrend 

40 die virtu^en Hazards "Write-After- Read" und "Write- 
After-Writer durch das sogenannte "Register Rena- 
ming" aufhebbar sind. 

Die sifmstelaren Prozessoren kflnnen mit Hitfe 
von spezieil konzipierten AseemUerprogrammen sowie 

4S einer entsprechenden Compilertechndgie, cfie derartig 
optimierte Programme liefert In bestmO^icher Ausrut- 
zung ihrer theoretischen Performance betrieben wer- 
den. 

G^M wird die obige Aufgabe, die maximale 
so Befehlsrate zu erhohea durch einen Mikroprozessor 
mit den Merkmalen des Hauptanspruchs. Die Unteran- 
spruche geben vorteilhafte Ausfuhrungsfbrmen wieder. 

Insbesondere wird kn nachfolgenden ein Mikropro- 
zessor beschrieb^i, bei dem die BemQhungen der 
ss siperskaiaren Architektur fbrtgefQhrt und durch die Eirv 
fitfirung einer pr ogrammierbaren Struktur -auch als 
strukturale Programmierung bezeichnet-so verbessert 
sind. daB bei Nutzung der jetzt vorhandenen Technolo- 
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gie eine erhebliche hflhere Beatbeitungsgeschwincfig- 
keit erzieft wird. Hierzu wird zunachst die Aichitektur 
edftutert, anschlieBend daraus resuHierende Assem- 
bler- und Compiler maBnahmen beechrieben und 
anschlieBend wid an eirigen Beispielen der Geschwin- 
digkeitegewinn durch die intensive Parallelitat der 
Instruktion zueinander berochnet 

Der zweite Vorteil fiegt darin, daB Read-AFter-Wrtte- 
Hazards m geeigneter Weise aufgelOst werden kOnnen. 
Read- After-Writs bedeutet ja, daB auf ein Ergebnis 
nach Berechnung zugegriffen werden muB, urn den 
weiteren RechenfluB aufrechtzuerhatten. Im Fall der im 
fdgenden beschriebenen s-Paracfigmervllnit liegt die- 
ses Ergebnis jedoch vor. bevor es gespeichert wird, und 
es kann irmeitialb der Struktur bereits nrit richtigem 
Wert weiteibenutzt werden. Dies ist gleichbedeutend 
mftdem Gewinn eines AusfOhrungstakls, der in der bis- 
herigen Variante zur Speichemng durchlaufen werden 
mOBte. 

Die neuartigen struktur ellen MaBnahmen in den 
Uordergrtind stellend, wird audi von einem s-Paracfig- 
men-Rechner gesprochen bzw. einem SrParadigmen- 
Model, nach dem der Mikroprozessor atbeitet 

Beechreftxino des s-Parad igmen-Modefls 

Das s-Paradigmen-Modell kann grundsatzlich auf 
die ausfuhrende Einheit innerhalb eines beiiebigen Pro- 
zessors angewendet werden, da es sich ausschlieBlich 
in (fieser Einheit von dem von- Neumann-Mod ell urter- 
scheidet und der KbnrtroltfluB-basierte Ablauf der 
Befehisholung, der gerade ein typisches MerkmaJ des 
von-Neumann-Modells ist, hiervon unberOhrt bleibt Urn 
die LalstungsfaNgkBit des ModeRs jedoch deutlich 
erscheinen zu lassen, wird im fblgenden ohne 
Beschrflnkung der Allgemeinheit das SrParadigmen- 
Modefl im Zusammenhang und im Vergleich rmt einem 
superskataren Processor herkflmmllcher Bauart darge- 
stellt Dabei zeigt : 

Ftg. 1 die typische Organisation eines Qblichen 
super skalaren Prozessors, 

Rg. 2 die Mikroarchitektur nach der Erfmdung, 

Fig. 3 sine prinzipielle Struklur einer Functional 
Unit, 

Rg 4 die Struktur eines Multiplexers, 

Rg. 5 einen Vergleich zweier Codes, 

Rg. 6 eine DatenfluBGbersetzung IQr Assembler- 
code, 

Rg. 7 einen C-Source-Code, 
Rg 8 einen Assemblercode in 1 . Optimierung, 



Rg. 9 einen Wontroilgraph fur die Assembfierung, 

Ftg. 1 0 den Assemblercode in 2. Optimierung, 

5 Rg. 1 1 den Assenfclercode in 3. Optimierung und 

Fig. 1 2 eine DatenftuBQbersetzung 10r den Assem- 
blercode der Rg. 10. 

w Die Fig. 1 zeigt dabei dm Aulbau eines superskala- 
ren Prozessors bei bewuBter Fortlassung der Floating- 
Point-Bnheit Die bn felgenden dargestaltten Eigen- 
schaften der ausfuhrenden Einheit fur den Integer-Teit 
des Rechners lassen sich auf die Roeting- Point-Unit 
is 1:1 Obertragen. 

Innerhalb des Prozessor werden der Integer-Regi- 
ster-Rle, die Functional Units und die Re-order-and 
Comnrat-Unit durch eine neue Einheit, die s-Unit, 
ersetzt Diese Einheit wird im nachfolgenden nfther 
20 erteutert. Zusatzlich werden in einigen anderen Units 
Verfinderungen nfitig, die nachfolgend ebenfalls 
beschiieben werden. Zun&chst soil jedoch eine kurze 
Eriauterung der Funklionafitaten in Rg. 1 erfolgen. 
Das Memory Interface 10 schafft die Verbindung 
25 zum externen Code- und Datenspeicherbereich (Haipt- 
speicher L-2-Cache etc nicht dargesteltt). Auf der Setts 
der tnstruktionen werden diese in einen Instruktions 
Cache 14 mit einer Vbrdecodierung abgelegt Die Vcr- 
decoderung ist vorteithaft, falls zusfltzfiche Infer matio- 
30 nen zur schnelleren Bearbeitung fur die nachfolgenden 
Stufen erzeugl warden sdlen, sie kann ansonstan fcrt- 
gelassen werden. Die instruktionen werden dann im 
Instruction Cache 14 mit einer Vordecocferung abge- 
legt Die Vbrdecodierung ist vorteilhaft, falls zusftlzfiche 
as fcnformationen zur schnelleren Beaibeitung for die nach- 
folgenden Stufen erzeugt werden soDen; sie kann 
ansonsten fortgelassen werden. Die tnstruktionen wer- 
den dann im Instruction Cache 14 als unmittebaren 
Speicher vor der Bearbeitung und/oder Im Instruction 
40 Buffer 16 gespeichert. wemit im letzteren Fall sie bereits 
in der Bearbeitung bef indiich sind. Fig. 1 entspricht also 
dem Stand der Technik. 

Die darauf folgende Decode, Rename & Dispatch 
Unit* 18 verteOt innerhalb einer superskalaren Architek- 
4s tur die Befehle auf mehrere ausfQhrende Teilelnheiten 
in einer Functional Units und ordnet Register aus dem 
Integer Register File 24 zu. Diese Zuordnung muB auf- 
grund des Register Renaming erfolgen, urn virtueile 
Hazards zu vermekjen. Die Functional Units 22 arbeiten 
so ggf. eng mit einem Data Cache zusammen, urn die ntiti- 
gen Operanden laden zu konnen. Nach der parallel en 
AusfGhrung mehrerer Instruktionen mussen die Ergeb- 
nisse, in den Regtstern stehoxi, neu geordnet oder ins- 
besondere als guftig gekermzeichnet werden (Re-order- 
55 and-Commit-Unit). 

AbschlieBend sollte zu dem Modell noch erwahnt 
werden, da3 de Behandlung von bedingten und unbe- 
dingten Verzweigungen (Conditional and Non-Conditio- 
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nal Brandies) auBerhalb des hier dargesteilten Teils 
abfcuft Werzu werden Maflnahmen z. B. Branch Pre- 
diction 1 (\forhersage) rrtl einer probewetsen AusfQhrung 
vorgesehen, die bet Nichterfullung zu VerzCgerungen 
fflhren. 5 

Die in der Fig. 1 grau hinterlegten, jedoch im Stand 
der Technik auf diese Art und Weise vorgesehenen 
Btocke werden nun, wie in der Fig. 2 dargestelit, nach 
der Erfmdung entsprechend anders aufge baut 

We dargestelit. werderi eine^Prdgramnii^e Struc- io 
ture Buffer 30, ein Integer/Address Instruction Buffer 32 
und eirte Einheit mit Functional Units with Programma- 
ble Structure 34 neben dem Integer Register File 24 
vorgesehen. 

Das s-PaiBtfgmen-Modell kennt dabei vier Klassen is 
von Maschinenbefehlen: 

* Branch- und Jump-BefeWe zur KbntrollfluBsteue- 
rung, 

20 

- Load-/Store-Befehie zum Datentransfer zwischen 
Registern und Speteherbereich, 

Arrthmetische und logische Befehle zur Berech- 
nung, und 25 

- sonstige Befehle wie No Operation, Wait Stop, etc., 
die im werteeten Sirtne auch der Kbntroltf luBsteue- 
rung dienan. 

30 

Wahrend die BsfehlsWassen zur KbntrolHluBsteue- 
rung wie bisher beiassen und damit entsprechend dem 
Standard fri stperskalaren Rechnem ausgefQhrt war- 
den, n eh men die Load/Store-Befehle und die arfthme- 
tisch/logischen Befehle eine rteoe St e! lung ein. as 

LoacVStore-Befehle warden entweder nut Ffflfe 
einer oder mehrerer LoacVStore-PipeRne(s) zum Daterv 
transfer zwischen dem Integer Roaster File 24 und dem 
Datenspeicher (Cache 35, Hauptspeicher) eingeeetzt 
und dann auch wie bisher bearbeitet Oder sie werden zu 40 
den arithmetiscrVlogischen Befehlen hinzugefOgt und in 
das nun beschriebene KernstGck dee s-Paracfigrnerv 
Modefls Integriert Die Entscheidung hierCber obfegt 
dem Systemdesgner der CPU. Move-Befehle hinge- 
gen, die einen Datentransfer zwischen den Registern 45 
des Prozessors bewirken, gehCren gnndsfltzlich zu 
dleeem Modell. 

Die arithmetiscMogischen Befehle (und die Nnzu- 
gefuhrten Load/Store- Befehle) werden ihrer Program- 
rriersequenz zufcrfge in eine Struktur von aufeinander- so 
fotgenden Hardwareverknupfungen iibersetzt. Zu die- 
sem Zweck bietet die Functional Unit im erfindungsge- 
mftBen Mikrocomputer eine programmjerbare Struktif 
und teste verdrahtete arithmetiscrVtogische Verknup- 
fungen (sowie ggf. Zugriffsfunktionen wie Load/Store- ss 
Pipelines) an, die durch die Struktur miteinander ver- 
knQpft werden kflmen und in der Reihenfolge der Struk- 
turterung bearbetet werden. 



Die entsprechende Funkticnafitat wird in der Rg. 3 
ertdutert Don werden die Teileinherten der Functional 
Unit 22 und das Register File 24 (in der Rg. 3 grau hin- 
tertegt) durch eine Vielzahl von Datenverbindungen und 
Multiplexern 40 verbunden. Die Datenverbindungen 
sind dabei afs Busse mit der jeweligen intern en Daten- 
busbreite ausgefQhrt (z. B. 32 Bit), eine Ausnahme bi!- 
den die Concfition Codes, die als Brt-Leitungen 
(gepunktet gezeichnet) implementiert sind. Innerhato 
der FQnHonal'Unir axtetiereh fOfif Typeh VbhTeileirtiei- 
ten: 

Die Arithmetic Unit (AU, Typ A) 50; 51, die nicht mit 
der herkOmmichen Arithmetical Logical Unit (ALU) 
verwechseit werden sollte. Die AU 50; 51 enthatt 
eine Oder wenige, dann tonfigurierbare VerkrKip- 
fungen, beispielsweise die Mdglichkait, zwei Inte- 
gerzahlen zu adcfieren. Sie liefert ein Ergebnis an 
iirem Ausgang, werm die Bngdnge entsprechend 
beschaltet werden und dieses Ergebnis karm inner- 
halb des Schaltnetzes waiter verwendet werden. 
Die AU 50; 51 1st getennzeichnel durch zwei En- 
gangsbusse und einen Ausgangsbus, ggf. durch 
eine Konfigu^orernOgnchkBrt (Auswahl der Ver- 
knupfung, im Extremfall entsprechend einer ALU) 
und durch Kbndrticnalbits. In einigen Fallen, bei- 
spielsweise bet der Murtipfikaton kann cfie Breite 
des Ausgangsbusses abweichen, um die Berech- 
nungen zu ermOglichen. 

Eine Compare Unit (CoUL Typ B) 52, die ebenfalls 
einem Multiplexer nachgeschattet ist For die 
becingte AusfQhrung der VerknOpfting werden Her 
Condition Code Bits ckrch einen tonfigiFierbaren 
Vergleich in der CoU 52 erzeugt Der Vergleich &Bt 
sich be! Verwendung von drei Kbnfigurationsbits auf 
>,>=,«=, K==,TRUE oder FALSE einstellen. 
Kennzeichen der CoU sind zwei Eingangsbusse 
und ein Ausgangsbit sowie die Kortfigurierbarkeil. 

Multiplexer (MulC. Typ C) 40, belegen die Engfinge 
der AUs und der Colis mit jewel is zwei Bngangs- 
werten in der voDen Verarbeitungsbreite. HierfQr 
benQtigen Sie eine Anzahl von Kbnfigurierungsbits, 
die sich aus der Anzahl von Eingflngen und den 
zwei Ausg&ngen ergeben. Kennzeichen fOr WiiC- 
Einheiten sind zwei Ausgangsbusse. 

Wetter sind Multiplexer (MuiD, Typ D) 58 zu nennen, 
die vdt dem Registerfiie 24 vorgesehen sind. FQr 
die Beiegung der Register mit den Ergdbniswerten 
wird lediglich ein Ausgangsbus und damit auch nur 
die Hflffte der Kbnfigurationsbits ben6tigt. Ein MulD 
unterschetdet sich daher vom MulC durch die 
Anzahl seiner Ausgangslertungen. 

Letzlich sind noch die Demultiplexer (Demul, Typ E) 
46 zu nennen, die die Ergebnisse der Vergleiche 
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(CcU) an ent6prechende AU's wetterleiten. fan 
Gegensaftz zu den Muttiplexem 58, die eine Quel- 
lenauswati! vomehmen, fiegt hier eine Zielauswahl 
vor. 

Die Verbirdungen zwischen den Tefleinheiten kfin- 
nen tomplett oder teiiweise ausgefQhrt sain, abhflngig 
von der Anzahl der zur Verfugung stehenden Konfigura- 
tionsbits in der Gesamthart. In einer Beispielarchitektur 
im nftchsten Abschnltt wind eine vollstandige Verbind- w 
barkeit gezeigt sowie die Zahl der notwendigen Bitedar- 
aus berechnet 

Der Sim der strukturierbaren Functional Unit, nach 
der Erfindung iegt nun darin, die Struktur ent&prachend 
den Maschinenbefehlen in einem (Basis- oder Super) is 
Block eines Programms anzupasaen. Derarttge BlOcke 
sind dadurch getennzeichnat daB sie ohne (Basis- 
block) bzw. nur mit selten genutzten (Superblock) Ver- 
zweigungen (Branch-Befehle) auskommen, also bn 
KontroltfluB deterministisch oder wenigstens mit hoher 20 
Wahrsche'mlichkeit bestimrrbar sind. Auf (fie Problema- 
tik dteser Blocks und ihre Auswirkungen auf Assembler* 
und Compilertechnologie wird in ubernach&ten 
Abschnitt "Kbnsequenzen ..." ndher eingegangen. 

Die Programmienjng erlolgt im SrParadigmenmo- 2s 
dell durch das Laden von Korrfiguratoisbits IQr die Tail- 
einheiten. Diese weiden im Programmable Sturcture 
Buffer zwischengespeichert und bei Bearbeitung des 
Blocks in cfie s-Unit S geladen, die dadurch entspre- 
chend strukturiert ist und den Block bearbeiten kartn. 30 
Die Bearbeitung bezieht sich dabei lecfiglich auf die 
arithmetische und logischen Verknupfungen zwischen 
Registerinhatten, ggf. auch mit Speicherinhatten (fells 
eine enteprechende Load/Store-Pipeline zur VerfOgung 
steht). wahrend alle artderen Befehle, insbesondere ss 
Load/Store und KontrofffkiBbefehle wie Qblich ablaufen. 

Die Generierung der Konfigurationsbits karm errt- 
weder im Assembler erfolgen (Compiletime basierte 
Generierung), ee ist aber auch prinzipien mOglich, sie in 
der CPU, etwa durch einen funktionefl erweiterten Pro- 40 
grammable Structure Buffer zur Laufzett erzeugan zu 
las&en (Runtime-basierte Generierung). 

Realisienjnp fiformen der Execute-Einheit des erfin- 
dunqsqemflBen Mikrocorrputers 4S 

Die Struktur der s-Unit S mit festverdrahteten AUs 
50; 51 sowie CoUs 52 und tonfigurierbaren Wegen zwi- 
schen diesen Teileinheiten Iegt zunachst test, daB die 
MiJtiplaxBr das programmierbara Element dieser Kbrfi- so 
guiation darstelli Die teste Verdrahtung insbesondere 
der AU s 50; 51 wurde gewahft, um die Anzahl der zu 
ladenen Bits mOgfichst gering zu halten. tn einer werts- 
ren Stufe der Rexibilisierung konnten auch die AUs 50; 
51 programmierbar sain, d. h. auf eintachen Stniduren 55 
wie NAND-Gattem oder Disjunktiven Normalformen 
(DNF) aufbauend realisiert sein. Damil ware sine 
nahezu befiebige Funktionalitflt bereits in einer AU 50; 



51 integriebar. 

Arithmetic Units 50; 51 beinhalten beispielsweise 
fclgende Funktionafitaten: 

Arithmetische VerknQpfungan wie Addition, Sub- 
trakticn, Miitipfikation, Division, 

- Logische Verknupfungen wie AND, OR, XOR, NOT, 
Kbmplement (Zweier-). 

- Shift-Funktionen wie arithmetische Oder logische 
Shifts nach rechts/links, 

Bedingte Dalentransfers, abh&ngig von Eingangs- 
bits (2 Wege-Multiplexer, im Unterschied zu den 
MulC und MulD-Tefleinheiten zur Laufzeit 
umschaltbar). 

Die Basis for die Programmierung der Struktur, also 
der beiden Multiplexertypen, besteht in RAM-Zellen. 
Hiermit ist eine sehr sc^melle Kbnf igurierung gewfthrlei- 
stet w&hrend andere Technoiogien wie EEPROM lan- 
gere Zeit benCtigen und eher fur den Ersatz ven 
pro^ammierbaren AU's denkbar wdren. Mit Hitfe von n 
Bits kOnnen dann 2 n Wege geschaltet werden, so daB 
for einen MulC bei 32 Eingftngen 2x5 Bits, fOr einen 
MulD 5 Bits zur Korrfigurierung notwencfig wftren. Die 
prinzipiefle Struktur cfieser Multiplexer ist in der Fig. 4 
dargesteBL 

In einer mogtichen konkreten Modellarchitektur 
sand dann felgende TeQainhtaiten und Register irnple- 
mentiert: 

- vier Addierer (AU), bei denen durch ein Condition 
Code-Bit die Addition durchgefOhrt wind (TRUE) 
oder das erste Wort unverfindert durchgelassen 
wild (FALSE), 

- eine logische Einheit mit AND, OR. XOR und 
Zweier-Komplementbildung, konfigurieibar durch 2 
Bits (AU), 

ein Multipiizierer (AU), 
ein Dividierer (AU), 

- eine Shift-Fmklionsainheft (AU), die mit Hilfe von 
zwei Bits auf Bnksfrechts und arithmetisch/logisch 
tonfiguriertwird, 

zwei dynamische Pfad-MuUiplexBr, cfie durch ein Bit 
im Steuereingartg einen der beiden Qngangsbusse 
am Ausgang anliegen lassen (AU). Oiesa Multiple- 
xer somen nicht mit den Multiplexer Typ C Oder D 
verwech&elt warden, da die hier vorgeschlagene 
Tefleinheit die Auswahl d/namisch schattet, 
sechs Vertf eichseinheiten mit je einem Bitausgang 
konfigurierbar Qber drei Bits auf acht Vergleidisar- 
ten (CoU) 52, 

zwOlf logische Register RO bis R11, die h einem 
Pool von beispielsweise 24 physikalischen Regi- 
slern per Register Renaming identifiziert warden, 

- vier Kbnstantenregister CO bis C3, in denen die im 
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Instructioncode codierten Kbnstanten waJvend tier 
Bearbeitung eines Blocks geepeichert werxJen. 

Dies ergibt eirte Gesamtheit von 32 zu veibindenen 
Talen innerhalb der s-Unit S. Wird eine vollstandige 
Verbindbarkeit gefondert, mussen tie Multiplexer im 
wesentfichen mrt fQnf bzw. 2x5 Bits tonfiguriert war- 
den. Zur Verbindung aler Enheiten werten 10 Multiple- 
xer TypC, 12vomTyp Dund6 Demultiplexer vcrn Typ E 
bentftigt Da angenomrn8n wild. daB cfie Kbrxfitionie- 
rung durch Vergieichsoperationen sich nur auf AUs 
bezleht benOtigen die DemultiplexBr nur drei Bits zir 
Konfiguration. Damit ergibt sich die Gesamtzahl der 
Kbnfigurationsbfts (fOr Multiplexer und kDnfigurierbare 
AUs) zu 200 Bits. 

Das Modeii kann zudem auf die Behancflung von 
Flags ausgedehnt werden, dies ist durch gesonderte 
AUs mit Auswerteeigenschaften moglich. Um einen 
Oberlauf bei arithmetischen Operationen zu verhindern 
bzw. zu detektieren, sind genugend timensionierte 
Datenbusse imd entsprechende Auswerteeinheiten not- 
wendig, die aus ObersichtsgrGnden fortgelassen wer- 
den. 

Kpnseqg^nzen des S-Panatfigmen-MQddlfi for MaSCfr- 
nenbefahle. Assembjenprogrammieaina und CompHer- 
bau 

. Der erfinduigsgem&Be Mikrocomputer arbeitet 
sehr ahniich zu superskalaren Architekturen, die auf der 
parallel en Instantiierung von ALUs basieren. Wichtig fOr 
die optimale Ausnutzung cfieser Architektur 1st cfie mOg- 
lichst groBe Kockbiidung im Rahmen der Assemblerco- 
dieaing. 

Hier wild ate Basisblock eine Fblge von Instruktio- 
nen verstanden, die keine Verzweigung durch beispiels- 
weise einen bedingten Branchbefehl beinhalten. 
Derartige Basisbtdcke sind bei herkOmmlichen Compi- 
lertechnolcgien eher relativ kurz, so daB die Ausnut- 
zung der intemen Paraflelitat gering bleibt 

Derzert sind metirere Compilerstraiegien in der Ent- 
wicHung, wie die obengenannte VferCffenttichung Smith 
zeigt, cfie eine verbesserte Nutzung versprechen. Eine 
Methocfik besteht in der Generierung von Superblocks, 
die im Regelfall einer Schleife durcWaufen werden und 
die im Zusammenhang mit cfieser Albeit eberrfaRs als 
gee^nete Blocks angesehen werden. Wesentfich inter- 
essanter ist die EHQhrung von taxfitionierten Befeb- 
len, cfie anhand eines EntschekJungsbits ausgefOhrt 
oder Qberspmngen werden. Dieses Entscheidungsbit 
kann durch Vergteiche entstehen und ist dann kontroil- 
fluBbestirnmend, also auch inter Randbedingungen 
Branch ersetzend wirksam. 

Ein Betspiet zum Einsatz solcher konditionierten 
BefehlsausfOhrungen, die "(radicated execution" kann 
durch cfie in der Fig. 5 dargestellte Sequenz in C und 
Assembler (Befehlsbedeutung vergl. Anhang A) gege- 
ben werden. 



Dieses Beispiei wind fur eine Pseudo-CPU gezeigt, 
cfie in herkOrnmlicher Weise bei relativ optimaier Aus- 
nutzung von Registern eine bedingte Wertzuweisung 
ubersetzt Der hierbei auftreteride Sprungbefehl ble 

s (branch if less or equal) bedeutet jedoch g£. eine Ver- 
zweigung im KcntrdlfluB, was bei der Impiementierung 
und Nutzung becfingter BefehlsausfQhmjng nicht not- 
wendig ist Hier wird ein Bit im Register p1 gesetzt, falls 
rO > 0 gilt, ansonsten getoscht und die bedingten movp- 

io BefehiebeziBhen sidVatif p1 und sdiiieBen sich gegen- 
settig aus, so daB dies gut in nebeniaufige Hardware 
umzusetzen ist bei der nur ein Pfad aktiv sein darf. 

Das Kurze Beispie! kann dabei kemeswegs als 
Beweis fOr cfie Beschleunigung durch tonditionierte 

75 Befehle gesehen werden; umtangreiche Arbeiten wie 
cfie von Smith (o.a.) haben jedoch ergeben, daB diese 
Maschinenbafehle sich au Berordentfich gQnstig far den 
RuB innerhalb einer Execute-Einhett von super skala- 
ren Mitoaprazessoren auswirken. Die Umsetzung in 

20 Hardware kann durch cfie dynarrischen Multiplexer in 
Verbindung mit den Vergleichem erfcrfgen, wie in Rg. 6 
anhand der Datenflu BObersetzung fOr Assembleroode 
dargesteilt ist. 

Die Obersetzung erfolgt durch Zuordnung eines 

25 Vergleichers 60, der fur a grOBer-aJs N konditioniert ist, 
und eines dynamischon Multiplexers 62, der die Aus- 
wahl aus den beiden einffieBenden Datenstromen 
anhand des Vergleichsbild vomimmt, zu cfiesem Aus- 
fQhrungsblock Die Loed/Store-Befehle verbleiben in 

oo der bi6herigen Form und sind nicht dangestdlt Zusatz- 
lich muB das Register CO (IGr Kbnstanten) mit dem Ver- 
gleichswert hier "XT geladen werd&i. 

FOr den MaschbienbeFehlssatz des erf indurgsge- 
maBen Mikrocomputers sind dann zusatziich folgende 

55 Befehle angenommen: 

PEQ (Dest), <Source), (Zielbit) (Qeichheit) 
PNE (Dest), (Source), (Zieibit) (Ungleichheit) 
PGE (Dest), (Source), (Zieibit) (grOBer oder 
40 gleich) 

PGT (Dest), (Source), (Zieibit) ( groBer als) 
PLE (Dest), (Source), (Zieibit) (Meinerodertf.) 
PIT (Dest). (Source), (Zieibit) (Weinerais) 

45 Eine Erwetterung dieses Befehlssatzes for Setzen 
von Kbnditionsbits ist natOrlich denMsar. Daneben mfls- 
sen diese KbndfflonsbHs auswertbar sein, was durch die 
EinfQhrung von bedingten Verschiebeund arithme- 
tisdVlogischen BefehJen erfdgen kann. Im folgenden 

so wbd fOr cfie Modellarchitektur des erfindungsgemABen 
Mikrocomputers daher vorausgesetzt daB alle Ver- 
schiebebefehte mit einer Kbndition betegbar sind 
(movp) und daB die arithmetisch/logischen Befehle so 
ausgefuhrt werden, daB der 1. Verknupfungsoperand 

55 durchgelassen wird, falls cfie Bedingung nicht erfQOt ist. 
Im Fall der 

addp (Ziel), (Operand^ ), (Operand^ ), 



6 



11 



EP 0 825 540 A1 



12 



(Prediction-bit) 

Verknppfung wird also (OperarxM ) in das Zielregi- 
ster geiaden, falls das <PredicctionJ*t> geUtecht ist. 
ansonsten die Summe von <0perand_1> und s 
(Operandi >. 

Die watleren Methoden zur Steigerung des Durch- 
satzes in dem erfmdungsgemaBen Mikrocomputer ent- 
sprechen denen fQr super skalare Mikroprozessoren. 
Hierzu zAhlen bazOgfich dar Prog^mmierung in io 
Assembler bzw. C (als Beispiel fur eine Hochsprache): 

• Nutzurtg der bedingter Ausfuhrung von BefeNen 
zur Schaffung von grOSeren BlOcken ohne Kbntroil- 
fluBstrukturen, is 

- Unrolling von Schleifen bis zum Maximum der Res- 
sourcan. 

- Abh&ngigkeitsanalyse und Beseitigung von Abhan- 
gigkerten durch (Compile-Time-) Register Rena- 
ming. 20 

Nachdem dies zu elnem Optimum fQr eine super- 
skalare Architektur gefuhrt wurde, wend en die vorhan- 
denen BfdckB emeut anafysiert und in die struktur ale 
Programmferung Obersetzt Diese Obersetzing kann 25 
zur Complezeit ertolgen, wobei der Vorteii ki der Inten- 
siven Analyse ohne Benutzung von Silizium im Zi el sy- 
stem zu sehen ist Die strukturale Programmierung wird 
dabei durch die vorhandene AbhAngigkatsanalyse und 
vor allem die Becerbgung erhebfich urrterstutzt, so daB 30 
die Befehie in DatenfUsse und damit in tie Struktur 
umsetzbar sind. Die6e Struktur besitzt dam keine 
Zykien oder ROckkopplungen. tie fQr die Hardware- 
strukturierung bei asynchronem Design unbrauchbar 
ware. 55 

Der Performancegewirm ergibt sich aus der Ausnut- 
zung zweier Vbrteile gegenuber einer "Massischen" 
ArchHeklur eines superskaiaren Mikroprozessors. Die 
ALU, die innerhalb der bisherigen Archrtektur verviei- 
facht wild, wind nunmehr aufge&palten, so daB die Ein- 40 
zelteile unabh&ngig voneinander nutzbar sind. Urrter 
der Annahme. daB die LaulzeH innerhalb der program- 
mlerbaren Struktur so Main bleibt, daB die Ergebnlsse 
unabhdngig von dem DatenfluBweg innerhalb eines 
Takts vorfiegen. ergibt ties eine im Schnitt bessere Aus- *s 
nutzung und kleinere AusfGhnxtgszeitBn. 

Die Steuerung bzw. Bestimmung der Ausfuhrungs- 
zert innerhalb der s-Unit nirmrt jedoch einen zentralen 
Punkt in der Hardwareiftytementierung ein. Fblgende 
Verfehren bieten sich hierzu an: so 

Die strukturai programrrierbare wird so konzipiert 
und mit dem maximal zul&ssigen Takt abgestimmt. 
daB die Laufzeit innerhalb da* s-Unit fur jeden Fail 
so cQmensioriert 1st daB das Ergebnis nach einem ss 
Takt in den Registers speicherbar 1st 

Die Hardware, tie in jedem Fall asynchron mitein- 



ander verknupft ist (eine Synchronic erung erfolgt in 
jedem Ball erst bei den Registern, weshalb audi 
eine Abh&ngigkBrtsbeseitigung notwencfig ist), lie- 
fert beim Durchlauf ein Ready-Signal mit, das die 
Obernahme in die Register steuert. Diese Form 
last ggi hohere Taktraten zu, wobei z. B. im Regel- 
fall ein Tak! zum Durchlauf benOtigt wird und in Aus- 
nahmeiailen zwei Takt a. 

Welter soil im fblgenden ein Beispietprogramm ana- 
rysiert, Obersetzt und fur eine superskalare Architektur 
optimiert werden. Die Geschwindigkettsn m Ablauf die- 
ses Maschinenpiog r a mms werden dann im Vergleich 
zum erfindttfigsgemaBen Mkrocomputer dargestelrt 
Dieses Beispiel stammt aus der oben genannten VerOf- 
fentlichung von J. Smith, urn tie Ergebnisse entspre- 
chend vergfeictoar gestatten zu kOnnen. 

Beispietprogramm 

Das Zueammenwirken von ConpOertechnotogie 
und MOglichkerten zur Parallelisierung durch die struk- 
turale Programmierung der Hardware kOnnen an einer 
einfachen C-Schleile demonstriert werden. FQr tie 
Codegenerierung wid dabei emer&eits ein superskala- 
rer Mikraprozassor zugnmdegelegt der mindestens 12 
Register, betingte Anweisungen und zwei nebeniaufige 
ALUs, beide ausgestattet mit alien Fahigkeiten, besitzt, 
andererseits wird das oben vorgestelite Model! einer S- 
Unit genutzt. Bei diesem Vorgang werden fblgende 
SchrHte durchlaufen: 

1. Der C-Sourcecode wird mit hflfe eines Compi- 
lers, der fQr nicht&Lperstalare Architekturen opti- 
miert, Obersetzt 

Z Die BlockgrOBe wfcd durch den Ersatz von 
bedingten SprOngen durch betingte Anweisungen 
arhflht. 

3. Je zwei Schleifen werden zu einer grOBeren 
Schieife zusammengefaBt (Loop UnroQing). 

4. FQr die gewormene Schieife wird ein (CompRe 
Time) Register Renaming mit Hife einer Abhangig- 
kertsanalyse durchgefQhrt 

FQr alle Stufen der Optimierung wird der Qrad der 
Parallelisierung bzw. die Anzahl der bendtigten Takte 
angegeben, fur die hochste Stufe im Vagteich zwischen 
einer superskaiaren Architektur bisheriger Bauart und 
einem edindungsgemaBen Mikrocomputer. 

In der Fig. 7 ist der OSourcecode dargesteltt Das 
Programm besteht in einer Zuweisungsschleife an ein 
Array bQ in Abh&ngpgkeit eines Arrays aQ. wobei hier 
besonders die Read-After-Write-Abhdngigkeiten zu 
anatysieren sind. 

Das Inter essante an diesem Code ist tie Reihen- 
fofge der Adreesen. auf tie jeweils zugegriffen wird, da 
die Zuweisung in einem TeA dar Schieife bp] + b[i+1] 
lautet und somit das zwerte Element des 1 . Zugriffs 
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Oleic* dem ersten Element der zweiten Schleife ist Die 
Ubeisetzung des C-Sourcecodes mit einem optimiererv 
den Compiler, ausgelegt fOr traditionelle Architekturen, 
ergibt dann das in der Fig. 8 dargestellte Assemblerli- 
sting. 5 

Der KbntrollfluBgraph, wie er in der Fig. 9 darge- 
steltt ist, zeigt die Wege, auf denen dieser Code durch- 
laufen wind. Der Compiler selbst hat den 
Assembler code eo optimiert, daB einige Basisblocks 
entstehen Cn Abb. 8 dutch Unien getrennt). Die aufeirv ro 
anderWgenden Instruktionen 1 und 2 bedeuten b&- 
spielsweise. daB Her Bin Read-After-Write- Hazard 
vortiegl: n wind zuerst beschrieben und dann erst 
danach ztim Vergleich mit 0 gelesen wesden. Die 
Abhangtgkeit bewirkt, daS keine paralele Ausfuhrung is 
mogfich ist Die Spaite fur den aktueilen ZyWus bezieht 
sfch auf etna superstalare Architektur, die prrizipiefl 
parallele Aktkmen durchfu hren kann. Die Berechnung 
einer 8chieife dauert im MaximaHkO 6 Zyken (bei ange- 
nommenen 2 ZyWen fur einen Bat en transfer zum so 
Hauptspeicher), so daB fOr den then-Part bei 9 durch- 
laufenen instruktionen 1,5 InstrTZyWus ausgefQhrt wer- 
den. 

Durch eine 1:1-Kcple das Blocks L4 fOr den else- 
Part eine Veranderung der Re&ienfblge der Anweisun- 26 
gen und den Ersatz der bedingten Verzweigiffig durch 
die bedingte Ausfuhrung der Speicherbefehle kann eine 
VergrOCeang des Basisblocks erreidht werden. Das 
zugehOrige Assemblertisting (Fig. 10) zeigt eine 
Beschleunigung einer Schleife auf 4 ZyWen (bei der 30 
Annahme. daB die letzte Verzweigung rtehtig vortierge- 
sagtwiid). 

Der Durchsatz pro Schleife vergrOBert skJi f Or eine 
SLper&talare Architaktiir durch diese MaBnahmen auf 2 
Instr./Takt. Ninrrnt man nun an daB die s-Paradigmen- as 
Unit S ein beliebiges Schaltnetz in einem Takl bearbet- 
ten kann, dann benotigt die Implementierung im erfin- 
dungsgem&Ben Mikrocomputer hingegen fOr aile 
Berechnung en einschlieBfich der bedingten Wertzuwei- 
sung einen Takt, der Durchlauf pro Schleife verkurzt *o 
&ich auf 3 Takte, der Direhsatz betrfigt 2,66 InstrYTakt 

Die Fig. 11 zeigt die Struktur einer S-Unit & Die 
Load/Store-BefehlB. die der KormuiriikHtion mit dem 
extern en Speicher dienen, mOssen ebenfaDs arithmeti- 
sche Berechnung fOr die effektfre Acfresse vornehmen. 45 
Diese sind hier nicht gezeichnst obwohl prlnzipiell auch 
Adcfierer aus der S-Unit fur die Adreesenadcfition nutz- 
barwflren. 

Die letzte Stufe der hier gezeigten Optimierungen 
behandelt die Verbesserung der Performance durch ein so 
Zueammenfassen zweier Schleifendurohiaufe zu einem 
(Loop Unrofling) mit nachfdlgender Abhangigkeitsana- 
lyse und -behebung. Diese Optimierung steigert den 
Durchsatz. falls eine unabhangige, parallele Bearbei- 
tung beider Teflsdilerfen mOgfich 1st Daher verwendet ss 
diese Methode zur Beseitigting von Afehangigkerten ein 
Compile-Time Register Renaming. 

In der Fig. 12 ist das Ergebnis nach der Optimie- 



rung [1]dargesteilt. 

Durch die parallele Bearbeitung zweier Schleifen 
sinkt die Bearbetungszeit auf durchschnittfich 2 Takte 
pro (ehemaliger) einfacher Schleife, wobei als Paralleli- 
sierungsmaS nunmehr 3.75 InstrjTakt ausgefOhrt wer- 
den. Dies got fur die superskalare Architektur. wahrend 
der eifindwgsgemfiBe Mikocomputer Im tonkreten 
Modeil des Abschnitts (oben unter der Oberschrift Rea- 
lisierungsform der Execute-Einheit^des erfindungsge- 
mdBen Milroccmputers beschrieben) eine waiters 
Steigerung vcrgebracht wild. 

Abgesehen von den AdreBberechnungen werden 
vier Additionen in einer Doppelechleife sowie zwei 
bedingte Zuwelsungen gefordert. Diese Ressouroen 
sind im Mod ell vorhanden, das eeinefsete mit Additi- 
onskapazitaten speziell fur SchleHendurchfuhrungen 
ausgestattet wurde. Damit lABt sich der gesamte Block 
der Additionen und Wertzuweisungen in einem Takt 
ausfflhren. wiederum unter Annahme. daB das Schalt- 
netz dies stabil wahrend dee Takte dimchlaufen laBt Die 
durchschnittliche Bearbeitungszeit pro einfacher 
Schleife liegt dam bei 3 Takten, dies ergibt eine Rate 
von 5 fcnstrVTakt 

frisgesamt 1st damit erstmaiig die struktur ale Pro- 
grammierung in das zentrale Bearbeitungselement der 
prozedural8n Programme, die CPU angefQhrt Unter 
Beschrankung auf eine Neukonzeption der ausfuhren- 
den Einheit wuide ein konkretes Mod en mit beschrank- 
ten Ressourcen entworfen, wobei gazeigt winds, daB 
dieses Model! im Vergleich zu btsherigen superskalaren 
Archttekhiren eine deutfich verbesserte Performance 
bietet Die Beaibeitungszeiten wurden in den Beispie- 
len um 25 33 % verkflrzt. 

PatentansprOche 

1. Prozessor mit Pipelirdng-Aufbau, nsbeeortdere mit 
st^erskalarer Architektur mit einer tonftgurierbaren 
Logdoeinhert ieinem tnstruktionsspeicher (16), einer 
Dekodiereinheit (18) und Intertacernittetn (10, 36), 
gekennzeichnet durch 

- einen als Logikeinheit wirkenden Programma- 
ble Structure Buffer (30), 

einen Integer/Address Instruction Buffer (32), 

- einem Integer-Register-File (24) zur direkten 
Kbmmunikatfon mit datenepeichemden Inter- 
facemitteln (36), 

- eine zur Verknupfung der Inhalte des Integer- 
Register-Fites (24) nrut einer ^Functional Unit 
with Programmable Structures* (34) ausge- 
fQhrte, muftiplaxgesteuerte s-Paradigmen Unit 
(s-Unit) (30, 34, 32, 24) mit einer Vielzahl von 
durch Multiplerarn verbundenen Datenverbin- 
dungen, 
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wobei die s-Unit (30, 34, 32. 24) zur dynamischen 
Neul^iguration/Programrnienjng wahrend der 
Laufzeit das Programms mil einer progHmmierba- 
ren Hardwarestnjktur versed en ist, und 
wobei irmerhaJb der Functional Unit (34) . 5 

- eine Mehrzahl von Arithmetic-Units (50) zur 
arrthmetischen und/oder logischen Verknup- 
fung zvreier Operand en auf zwei Engangsbus- 
sen zu einem Ergebnis auf einem 10 
Ausgangsbus, 

- eine Mehrzahl von Compare-Units (52) mit 
zwei Eingangsbussen und einem Ausgangsbit, 

15 

- eine Mehrzahl von Multipiexern (40, 58) mit 
einer Mehrzahl von Eingangsbussen und ein 
Oder zwei Ausgangsbussen, die zwischen den 
Arithmetic-Units (50) den Compare-Units (52) 
und dem Register-File (24) vorgesehen sind. 20 
sowie 



wobei die Entscheidungsbits durch Vergleiche ton- 
trottftuBbestimmend festgelegt werden, so daS bei 
dynamischen Muttiplararn (einem Untertyp der 
Arithmetischen Units) in Verbindung mit den Ver- 
gleichern eine optimale DatenfiufiObersetzung 
erzeugt wird. 



• eine Mehrzahl von DemultipJexern (46) mit 
einem Engangsbit und einer Mehrzahl von 
Ausgangsbits vorhanden sind. zur Ueferung 2s 
des ErgebnJsses der Vergleiche (CoLI) in einer 
Zieiauswahl an entsprechende Arithmetic- 
Units (50) innertiatb der s-Unit 

2. Prozessor nach Anspruch 1 , so 
gekennzeichnet durch 

ein Floating Point Register Ffle mil entsprechenden 
VerknQpfungen als Oder zusdtzlich zum Integer 
Register File (24). 

35 

3. Prozessor nach einem der vorangehenden AnsprO- 
che, 

dadurch gekennzeichnet, daB 
cfie Arithmetic Units und Compare Units wahrend 
des Programmlaufs dynami6ch fur jewefls einen 40 
Block von Befehlen en ihrer FunktianaBtfit tonfigu- 
rierbar und programmierbar sind. 



4. Verfahren zur htocngeschwinolgkatsrechnung mit 
Ptpefintng-Prozessoren nach einem der vorange- 46 
hand en AnsprOche. 
dadurch gekennzeichnet daB 

- in einer S-Unrt nach mCglichst groBer Blockbil- 
dung km Rahman der Assembler cocfierung und so 
Einfuhrung von konditionierten Befehlen, cfie 
anhand von 'Entscheidungs'-bits ausgefuhrt 
oder Qbersprungen werden, 

- die Konfigurationsbits fur die Teileinheiten in 
einem Programmable Structure Buffer zwi- ss 
scheng espeicher t werden, und bei Bearbei- 
tung des Blocks in die s-Unit geladen werden. 
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FIG 4 Multiplexerstruktur 



n Bits (RAM) .. 



k Eingange (Busse) 




1 bzw. 2 Ausg&nge (Busse) 



FIG 6 DatenfluBubersetzung fQr Assemblercode (c) 




DatenfluB 
Konditionalbits 
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FIG 5 

Vergleichvon C-Code (a) f Assemblercode mit 
Branch (b) und mit bedingten Befehlen (c) 

inta.b; movrO.a; movrO.a; 

if(a>0) movrl.b; movM.b; 

b = a; movr2,0; pgtrO,0,p1; Setzenvonpl 

else cmp rO. 0; Vergleich movp r2, rO, p1 ; Nur fur a > 0! 

b = 0; ble 11 ; Bedingter Sprung movp r2 t 0, /p1 ; fur a < = 0; 

mov r2, rO; Nur fur a > 0! mov b. r2; 
L1:movb, r2; 

(a) (b) (c) 



FIG 7 

C-Sourcecode 

int a [LIMIT), b[UMH); 
int i. n; 

for (i = 0;i < n;i++) 
{ 

if {a [i] ! = 0) 

b[i] = b[i] + b[i + 1]; 
else 

b [i] = 0; 
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FIG 8 

Assemblercode 
(1. Optimierung) 



Registerinhalte: 

rO = &b[1] 

r1=a[i] 

r2 = i * 4 

r3 = b[i] 

r4 = b[i+1] 

r5 = b[i]+b[i+1] 

r6 = nM 



Label Nr. Instruction 



Zyklus 



1 A . 

LO: 


niov 


rO ft 






mul 


ro, n, 4 






add 


rO. b,4 




L1 : 1 


Id 


ri , mem (a + xi) 


0 


2 


beq 


r1.0.L3 


2 


L2: 3 


Id 


r3, mem (b + r2) 


2 


4 


Id 


r4, mem (rO + r2) 


2 


5 


add 


r5. r4, r3 


4 


6 


St 


mem (b + r2), r5 


5 


7 


imu 


L4 


5 


L3: 8 


St 


mem (b + r2). 0 




L4: 9 


add 


r2. r2, 4 


5 


10 


bit 


r2, r6. L1 


6 



FIG 9 

KontrollfluBgraph fur Assemblierung 
(1. Optimierung) 



then-/ 
part/ 
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p|Q *|0 Label Nr. Instruction Zyklu s 

Assembiercode 
(2. Optlmierung) 



LO : 


mov 


r2,0 






mul 


r6,n,4 






add 


ru, D, 4 




L1 : 1 


Id 


rl f mem (a + r2) 


0 


3 


Id 


r3, mem (b + r2) 


0 


4 


Id 


r4, mem (rO + r2) 


0 


5 


add 


r5, r4, r3 


2 


2 


pne 


P1.M.0 


2 


6 


stp 


mem(b + r2),r5(p1) 


3 


8 


stp 


mem (b + r2), 0 (/p1) 


3 


9 


add 


r2,r2,4 


3 


10 


bit 


r2, r6, L1 


4 



FIG 12 

Assembiercode 
(3. Optimierung) 



Registerinhalte: 

rO = &b[1l 
M=a[i] 
r2 = i*4 
r3 = b[ i] 
r4 = b[i+1] 
r5 = b[i]+b[i-M] 
r6 = n * 4 
r7 = [i+1]M 

r8 = a[i-H] 
r9 = b[i+2] 



Label 


Nr. 


Instruction 


Zyklus 


LO: 




mov 


r2,0 








mov 


r7,4 








mul 


r6, n,4 








add 


rO. b.4 




L1 : 


1 


Id 


r1,mem(a+r2) 


0 
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Id 


r, mem (a+r7) 


0 




3 


Id 


r3, mem (b+r2) 


0 




4 


Id 


r4 r mem (rO+r2) 


0 




24 


Id 


r9, mem (rO+r7 


0 




5 


add 


r5, r4. r3 


2 




25 


add 


r10,r9,r4 


2 




2 


pne 


p1,r1,0 


2 




2 


pne 


p2, r8. 0 


2 




6 


stp 


mem (b+r2), r5(p1) 


3 




26 


stp 


mem (b+r7), M0(p2) 


3 




8 


stp 


mem (b+r2),0 (/p1) 


3 




28 


stp 


mem (b+r7), 0 (/p2) 


3 


+2] 


9 


add 


r2, r7, 4 


3 




10 


bge 


r7, r6, L1 00 


3 




29 


add 


r7, r2, 4 


3 




10 


bit 


r2, r6, L1 


4 



L100: 
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